课程主页:https://see.stanford.edu/Course/EE364A

这次回顾凸优化第七,第八讲,这部分介绍了凸优化问题以及对偶性。

Lecture 7 Convex optimization problems

广义不等式约束

考虑广义不等式约束下的凸问题:

  • 为凸函数;$f_{i} : \mathbf{R}^{n} \rightarrow \mathbf{R}^{k_{i} }$关于正规锥$K_i$凸

锥形式问题:目标函数和约束为仿射函数的特殊情形

上述形式将线性规划($K=\mathbf{R}_{+}^{m}$)推广为非多面体锥。

半定规划(SDP)

其中$F_{i}, G \in \mathbf{S}^{k}$

  • 不等式约束被称为线性矩阵不等式(LMI)

  • 上述形式包括多重LMI约束:例如

    等价于一个LMI

将LP和SOCP视为SDP

LP以及等价的SDP。

LP:

SDP:

SOCP以及等价的SDP。

SOCP:

SDP:

特征值最小化

其中

等价于SDP

  • 变量$x \in \mathbf{R}^{n}, t \in \mathbf{R}$

  • 上述等价是因为

矩阵范数最小化

其中

等价于SDP

  • 变量$x \in \mathbf{R}^{n}, t \in \mathbf{R}$

  • 约束是因为

向量优化

广义向量优化问题

向量目标函数$f_{0} : \mathbf{R}^{n} \rightarrow \mathbf{R}^{q}$,关于正规锥$K \in \mathbf{R}^{q}$最小化

凸向量优化问题

其中$f_0$为$K$凸,$f_{1}, \ldots, f_{m}$为凸

最优以及Pareto最优点

考虑目标函数的可行集

  • 可行点$x$是最优的,如果$f_0(x)$是$\mathcal O$的最小值
  • 可行点$x$是Pareto最优的,如果$f_0(x)$是$\mathcal O$的极小值

多准则优化

考虑$K=\mathbf{R}_{+}^{q}$的向量优化问题

  • $q$个可微目标函数$F_i$;粗略来说我们希望所有$F_i$都很小

  • 可行点$x^{\star}$为最优,如果

    如果存在最优点,那么目标函数是非竞争。

  • 可行点$x^{\mathrm{po} }$为Pareto最优,如果

    如果存在多个Pareto最优值,那么目标函数之间存在权衡。

正则化最小二乘

标量化

为了找到Pareto最优点:选择$\lambda \succ_{K^{\star} } 0$,然后求解标量问题

将多准则问题标量化

为了找到Pareto最优点,最小化正项加权和

例子

  • 正则化最小二乘问题

    选择$\lambda=(1, \gamma),\gamma >0$,

    对于固定的$\gamma$,上述问题是LS问题。

​ 对于固定的$\gamma >0$,这是要一个二次规划问题。

Lecture 8 Duality

拉格朗日函数

标准形式的问题(不一定凸)

变量$x \in \mathbf{R}^{n}$,定义域$\mathcal D$,最优值$p^{\star}$

拉格朗日函数:$L : \mathbf{R}^{n} \times \mathbf{R}^{m} \times \mathbf{R}^{p} \rightarrow \mathbf{R}$,其中$\operatorname{dom} L=\mathcal{D} \times \mathbf{R}^{m} \times \mathbf{R}^{p}$,

  • 目标函数和约束函数的加权和
  • $\lambda_i $为$f_i(x)\le 0$对应的拉格朗日乘子
  • $\nu_i $为$h_i(x)= 0$对应的拉格朗日乘子

拉格朗日对偶

拉格朗日对偶函数:$g : \mathbf{R}^{m} \times \mathbf{R}^{p} \rightarrow \mathbf{R}$,

$g$是凹函数,对某些$\lambda, \nu$可能为$-\infty$

下界性质:如果$\lambda \succeq 0$,那么$g(\lambda, \nu) \leq p^\star$

证明:如果$\tilde x$可行并且$\lambda \succeq 0$,那么

关于所有可行的$\tilde x $最小化给出$p^{\star} \geq g(\lambda, \nu)$。

线性方程的最小范数解

对偶函数

  • 拉格朗日函数为$L(x, \nu)=x^{T} x+\nu^{T}(A x-b)$

  • 关于$L$最小化$x$,令梯度为$0$可得

  • 带入可得

    这是关于$\nu$的凹函数

下界性质:对所有$\nu$,$p^{\star} \geq-(1 / 4) \nu^{T} A A^{T} \nu-b^{T} \nu$

标准形式的LP

对偶函数

  • 拉格朗日函数

  • $L$关于$x$仿射,因此

    $g$在仿射定义域$\left\{(\lambda, \nu) | A^{T} \nu-\lambda+c=0\right\}$是线性的,因此是凹的

下界性质:对所有$\nu$,$p^{\star} \geq-b^{T} \nu$,如果$A^{T} \nu+c \succeq 0$

等式约束下的范数最小化问题

对偶函数

其中

是$| .|$的对偶范数。

证明:利用如下事实

  • 如果$|y|_{\star} \le 1$,那么对所有$x$,$|x|-y^{T} x \geq 0$,当$x=0$时等号成立

  • 如果$|y|_{\star} > 1$,选择$x= tu$,其中$|u| \leq 1, u^{T} y=|y|_{\star}>1$:

下界性质:如果$\left|A^{T} \nu\right|_{\star} \leq 1$,那么$p^{\star} \geq b^{T} \nu$

双向划分

  • 非凸问题;可行集包括$2^n$个离散点

对偶函数

下界性质:如果$W+\operatorname{diag}(\nu) \succeq 0$,那么$p^{\star} \geq-1^{T} \nu$

Lagrange对偶和共轭函数

对偶函数

  • 回顾共轭的定义

  • 如果$f_0$的共轭已知,那么会简化对偶的推导

对偶问题

Lagrange对偶问题

  • 找到$p^{\star}$的下界,通过拉格朗日对偶函数得到
  • 对偶问题是凸优化问题;最优值用$d^{\star}$表示
  • $\lambda ,\nu$为对偶可行,如果$\lambda \succeq 0,(\lambda, \nu) \in \operatorname{dom} g$
  • 通过显式约束$(\lambda, \nu) \in \operatorname{dom} g$通常简化问题

例子:标准LP及其对偶形式

标准LP

对偶形式

弱和强对偶

弱对偶:

  • 弱对偶总是成立(对凸问题以及非凸问题)

强对偶:

  • 一般情形下不成立
  • (通常)对凸问题成立
  • 保证凸问题的强对偶性成立的条件被称为强对偶准则

Slater约束准则

对于凸问题,强对偶成立

如果该问题是严格可行的,即

  • 这同样保证了对偶问题达到最优性(如果$p^\star >-\infty$)

具有强对偶性的非凸问题

$A \not\succeq 0$,因此非凸

对偶函数:

  • 如果$A+\lambda I \not\succeq 0$或$A+\lambda I \succeq 0$以及$b \notin \mathcal{R}(A+\lambda I)$,那么无下界
  • 可以通过$x=-(A+\lambda I)^{\dagger} b$最小化:$g(\lambda)=-b^{T}(A+\lambda I)^{\dagger} b-\lambda$

对偶问题以及等价的SDP:

SDP

几何解释

简化起见,考虑单约束问题$f_{1}(x) \leq 0$。

对偶函数的解释:

  • $\lambda u+t=g(\lambda)$是$\mathcal G$的支撑超平面
  • 超平面在$t$轴的截距为$t= g(\lambda)$

上镜图变化:考虑

强对偶

  • 成立在$\left(0, p^{\star}\right)$处存在非竖直支撑超平面
  • 对于凸问题,$\mathcal A$是凸集,因此在$(0, p^\star)$存在支撑超平面
  • Slater条件:如果存在$(\tilde{u}, \tilde{t}) \in \mathcal{A}, \tilde u < 0$,那么$\left(0, p^{\star}\right)$处的超平面是非竖直的

对偶互补条件

假设强对偶成立,$x^\star$是原始问题的最优点,$\left(\lambda^{\star}, \nu^{\star}\right)$是对偶最优

因此,两个不等号取等号

  • $x^{\star}$最小化$L\left(x, \lambda^{\star}, \nu^{\star}\right)$

  • $\lambda_{i}^{\star} f_{i}\left(x^{\star}\right)=0$对$i=1,\ldots, m$: